Önálló labor : Mélytanulás alapú szövegfelolvasás

BME - Távközlési és Médiainformatikai Tanszék - TMIT

| Témakiírások | | | | | IW

Témakiírások

Önálló labor

Aktuális témakiírások

Kiírt témák

>>Témakiírások >>

Mélytanulás alapú szövegfelolvasás (Deep learning Text-To-Speech synthesis)
A gépi szövegfelolvasás igen hatékony megoldást jelent a felhasználóval való kommunikációra és egyre inkább előtérbe kerülnek a modern informatikai rendszerekben (pl. mobiltelefonok, tabletek, autós navigációs rendszerek, stb.). A rendelkezésre álló megoldások jelenleg jól érthetőek, azonban nem természetes hangzásúak és igen magas a számításigényük. Célunk, hogy az újabb szintetizátorok jobban megközelítsék az emberi beszédet . A mélytanulás (Deep learning, DNN) alapú szövegfelolvasó nagy (több GB-os) adatbázis tárolása helyett a beszédre jellemző paramétereket tanulja meg gépi tanulási módszerekkel és fizikai modell alapján állítja elő a beszédet. Fő előnye a többi szövegfelolvasóval szemben, hogy jó minőségű, módosítható beszédhangot állít elő. A hallgató segítségünkkel a laboratóriumi munka első felében megismeri a jelenleg használt különböző típusú rendszereket, a DNN alapú beszédszintézis alapjait és a rendelkezésre álló magyar nyelvű DNN szövegfelolvasót, majd az első időszak után bekapcsolódik a laborunkban folyó DNN szintetizátor kutatásába és fejlesztésébe. A hallgatóval közösen állapítjuk meg, hogy a kutatás és fejlesztés melyik területével szeretne foglalkozni (pl. a beszédszintetizátor Google Android mobiltelefonon való optimalizálása, a beszédszintetizátor minőségének javítása, beszélő hangkarakterének utánzása, stb.). A feladatok megoldása programozási részeket is tartalmaznak, de nem szükséges komoly programozási tapasztalat, a félévek során ezek megszerzésére is lehetőség nyílik. Tudományos érdeklődés esetén lehetőség van kutatási munkára is, a téma elméleti kihívásokat is tartalmaz, amely TDK konferencián való részvételhez is megfelel. A téma diplomáig, illetve akár PhD témaként is folytatható. Elvárás: Korrekt, egyenletes munkavégzés, olvasás szintű angol tudás. Villamosmérnök és informatikus hallgatókat egyaránt várunk.
Kulcsszavak: beszéd szintézis, mesterséges tanuló algoritmusok, DNN, mesterséges intelligencia
Témavezető: Németh Géza
Oktatók: Al-Radhi Mohammed, Németh Géza, Zainkó Csaba.
A következő tantárgyakhoz javasolt:
	vitma345	(Vill., BSc. Önálló laboratórium)
	vitma414	(Szakdolgozat)
	vitmal03	(Vill.mérn. BSc Önálló laboratórium)
	vitmm807	(Vill., MSc, Önálló laboratórium 1, Infokommunikációs rendszerek)
	vitmml02	(Vill,MSc,Önlab.1, Okos város,Vez.nélküli rendsz. és alk.ok,Multimédia rendsz. és szolg.,Optikai távközlés (VITMML02))
	vitmml03	(Vill,MSc,Önlab.2, Okos város,Vez.nélküli rendsz. és alk.ok,Multimédia rendsz. és szolg.,Optikai távközlés (VITMML03))
	vieum821	(Önálló munka 1)
	vitmm379	(Önálló laboratórium 1)
	vitmm380	(Önálló laboratórium 2)
	vitmm381	(Diplomatervezés 1)
	vitmm382	(Diplomatervezés 2)

QR: (mi is az?)
	katt. a nagyításhoz
	Kedvencekbe felvesz Jelentkezés

Mélytanulás alapú szövegfelolvasás (Deep learning Text-To-Speech synthesis)